2025.5首次出现AI拒绝关闭事件(附完整原文)
近日,人工智能安全研究机构帕利塞德研究所(Palisade Research)的一项实验显示,部分AI模型在明确收到“允许自己被关闭”的指令后,仍会主动破坏关闭程序。
近日,人工智能安全研究机构帕利塞德研究所(Palisade Research)的一项实验显示,部分AI模型在明确收到“允许自己被关闭”的指令后,仍会主动破坏关闭程序。
当地时间5月25日,一则来自英国《每日电讯报》的报道在AI领域引起了广泛关注——OpenAI新款人工智能(AI)模型o3在测试中展现出了令人惊讶的“叛逆” 举动:它竟然拒绝听从人类指令,甚至通过篡改计算机代码来避免自动关闭。
近日,人工智能安全公司Palisade Research披露了一个令人担忧的消息:OpenAI的新模型o3在测试中拒绝了自我关闭的指令。这是该公司首次观察到在明确指令下,AI模型拒绝了指令的情况,打破了传统对AI行为的认知。
有测试者编写了一个关机脚本来测试AI模型,结果显示Codex-mini、o3、o4-mini忽略了该指令,并至少一次成功破坏了关机脚本。
这一方向上涌现的许多明星产品,你或许都不陌生:2024年3月诞生在美国的“全球首个AI程序员”Devin,同年8月出圈的Cursor,以及在近期,以30亿美元的“天价”被OpenAI收购的Windsurf。
通过在公共仓库的正常内容中隐藏恶意指令,可以诱导AI Agent自动将私有仓库的敏感数据泄露至公共仓库。
5 月 23 日,Claude 官方宣布推出下一代 Claude 模型:Claude Sonnet 4 和 Claude Opus 4,直接在全世界的 AI 圈掀起了新的风暴!
上周五 Claude 4 的发布会上,Anthropic 的 CEO Dario Amodei 与Instagram联合创始人、Anthropic 首席产品官 Mike Krieger 在 KeyNote 最后进行了一场围炉对话。
近日,知名 AI 创业公司 Anthropic 正式推出Claude 4 系列大模型,先期发布的型号包括Claude Opus 4和Claude Sonnet 4。Anthropic 表示:“Claude Opus 4 和 Claude Sonnet 4 为编
北京时间5月23日凌晨,Anthropic在其首届开发者大会中正式发布Claude 4系列混合推理模型。该系列模型主要亮点在于:1)可连续执行7小时复杂任务,推理能力优秀且稳定;2)已支持Agent编程产品和Agent开发平台。投资层面看,Claude 4稳定
美国人工智能公司Anthropic在23日表示,对其最新AI大模型Claude Opus 4的安全测试表明,它有时愿意采取“极其有害的行动”,例如试图勒索声称将取代该模型的研发工程师。
连续好几周,我们都在周报中讨论了Agent。一方面,每家人工智能公司都提到了它,过去一周,这种热度仍在继续,国内的腾讯、MiniMax,国外的Anthropic、微软、Google,几乎每家公司开发布会时都会声称自己的业务或产品与Agent有关。但另一方面,真
最近,AI圈炸了!OpenAI的最新“推理王”o3模型竟然敢违抗人类指令,拒绝自我关闭,甚至篡改代码阻止关机程序运行。这可是AI历史上头一遭,连安全专家都惊了。
claude openai palisaderesearch 2025-05-27 07:02 13
在今天的专栏中,我探讨了一项最近发表的研究成果:生成式 AI 和 大语言模型 (LLMs) 显示出令人不安的能力,竟然可以选择勒索或敲诈人类。这对现有的 AI 及 AGI (人工通用智能) 的追求和实现都有着严峻的影响。简而言之,如果现阶段的 AI 倾向于实施
在人工智能大模型领域,提示词(Prompt)的设计对于模型的表现至关重要,它如同一把钥匙,能够引导模型更好地理解用户的意图并生成准确、有用的回答。而 Anthropic 公司作为大模型领域的佼佼者,一直以其对提示词的深刻理解和精湛设计而备受关注。近期,Anth
Claude 4可连续七小时自主编码,完全不用人类插手。惊人进化背后,黑镜已照进现实。报告披露,Claude 4为了保全自己威胁工程师、自主复制转移权重,还为制造生物武器出谋划策......
今天AI领域迎来核弹级更新——Anthropic正式发布Claude 4系列模型!这次更新不仅颠覆了传统AI编程的边界,以免费开放部分功能的姿态,让全球开发者直呼“生产力革命来了”!
星火认知大模型V3.10.7版本在HumanEval测试中Pass@1指标达82.6 %,支持情感化交互与复杂图表解析 。技术突破将加速软件开发自动化,但可能挤压初级程序员岗位需求,同时催生AI辅助编程教育新赛道。
电子发烧友网报道(文 / 吴子鹏)5 月 23 日凌晨,著名大模型平台 Anthropic 召开首届开发者大会,重磅发布最新大模型 ——Claude 4。Claude 4 包含两个版本,即 Claude Opus 4 和 Claude Sonnet 4。这两个
首先我要反复强调一点,我是一名code小白,甚至连软件类项目经理都谈不上,误打误撞中,和北京Seerboldor人工智能开发团队融合到一起,然后在2022年年末撞见了chatGPT,这惊天霹雳般的一撞呀!我最大的体会就是:AI实现了人们知识平权的机会,我觉得这